检索结果

期刊

出版年

关键词

Please wait a minute...

选择:

导出引用
EndNote Ris BibTeX

显示/隐藏图片

Select

1. 基于WaveNet的端到端语音合成方法

邱泽宇, 屈丹, 张连海

计算机应用 2019, 39 (5): 1325-1329. DOI: 10.11772/j.issn.1001-9081.2018102131

摘要（1089）

PDF （819KB）（577）

针对端到端语音合成系统中Griffin-Lim算法恢复相位信息合成语音保真度较低、人工处理痕迹明显的问题，提出了一种基于WaveNet网络架构的端到端语音合成方法。以序列映射Seq2Seq结构为基础，首先将输入文本转化为one-hot向量，然后引入注意力机制获取梅尔声谱图，最后利用WaveNet后端处理网络重构语音信号的相位信息，从而将梅尔频谱特征逆变换为时域波形样本。实验的测试语料为LJSpeech-1.0和THchs-30，针对英语、汉语两个语种进行了实验，实验结果表明平均意见得分（MOS）分别为3.31、3.02，在合成自然度方面优于采用Griffin-Lim算法的端到端语音合成系统以及参数式语音合成系统。

参考文献 | 相关文章 | 多维度评价

Select

2. 说话人确认中分数归一化的一种新方法

高新建屈丹李弼程

计算机应用

摘要（1618）

PDF （529KB）（1017）

在说话人确认中，由于目标说话人和冒认者的得分分布是双峰分布，并且不同目标说话人模型得分分布不一致，使对所有说话人确定一个统一的阈值变得困难，导致系统性能下降。分数归一化通过调整冒认者的得分分布来调整阈值。简要介绍了目前最常用的两种归一化方法：零归一化（Z-Norm）和测试归一化(T-Norm)。重点引入了一种新的根据KL距离的D-Norm 归一化方法。然后结合Z-Norm 和D-Norm的优点，又提出一种新的方法ZD-Norm。对这四种归一化方法的性能进行了比较。实验表明，ZD-Norm相对Z-Norm和D-Norm，能够更有效地提高说话人确认系统的性能。